iT邦幫忙

0

(27)Python的基礎介紹和爬蟲

  • 分享至 

  • xImage
  •  

Python網路爬蟲WebCrawler-AJAX,XHR網站技術分析實務(上)

網路爬蟲 - AJAX

AJAX
甚麼是AJAX
網頁前端的Javascript的程式技術

為什麼我們要討論這個
因為當網頁前端採用這個技術開發時,會影響到我們爬蟲的運作

瀏覽器輸入一個網址,他會發送請求送到網站伺服器,接著伺服器會把網頁且帶有資料送回到瀏覽器,瀏覽器就會把這些資料顯示出來,所以我們打開網頁可以看到文章的資料
https://ithelp.ithome.com.tw/upload/images/20221015/20152724cDFwC0m6I2.png

但是如果網頁採用AJAX的運作技術
瀏覽器接收到網址後,他會發送請求到網址伺服器,伺服器會把HTML網頁送回但她的網頁不會帶有任何的資料,他大概只有標籤和一些程式,但不會有文章的標籤或內容等等,瀏覽器會根據他的程式碼發送第二次請求到WEB伺服器,這時候他才會把真正的資料送回來,最後才會把這些資料顯示在畫面上,或是更多次請求(這些動作叫做AJAX的技巧)
https://ithelp.ithome.com.tw/upload/images/20221015/20152724VB9SokPDP7.png

Medium 文章列表
抓取知名網站medium.com的首頁文章列表

關鍵問題
認出網站運作模式,找出真正能夠抓到資料的網址是哪一個網址

參考來源:https://www.youtube.com/watch?v=IMOUf4BYTG8&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=21


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言